home *** CD-ROM | disk | FTP | other *** search
/ Floppyshop 2 / Floppyshop - 2.zip / Floppyshop - 2.iso / art&graf.ix / art-5471 / doc / faq.txt < prev    next >
Text File  |  1995-08-29  |  92KB  |  1,879 lines

  1. MPEG-2 Frequently Asked Questions List
  2. Copyright 1994 by the MPEG Software Simulation Group 
  3. Draft 3.4 (June 18, 1994)
  4.  
  5. (This is a freely available publication owned by a private group. It
  6. may not be resold or published for personal or orgranizational profit--
  7. be that financial or vanity--under any other name) 
  8.  
  9. Authors: Chad Fogg (cfogg@netcom.com), ..
  10.  
  11. 1. MPEG is a DCT based scheme, right?
  12. 2. What does the MPEG video syntax feature that codes video efficiently?
  13. 3. What does the syntax provide for error robustness?
  14. 4. What is the significance of each layer in MPEG video ?
  15. 5. How does the syntax facilitate parallelism?
  16. 6. I hear the encoder is not part of the standard?
  17. 7. Are some encoders better than others?
  18. 8. Can MPEG-1 encode higher sample rates than 352 x 240 x 30 Hz ?
  19. 9. What are Constrained Parameters Bitstreams (CPB) for video?
  20. 10. Why is Constrained Parameters so important?
  21. 11. Who uses constrained parameters bitstreams?
  22. 12. Are there ways of circumventing constrained parameters bitstreams for SIF 
  23.     class applications and decoders ?
  24. 13. Are there any other conformance points like CPB for MPEG-1?
  25. 14. What frame rates are permitted in MPEG?
  26. 15. Special prediction switches for MPEG-2
  27. 16. What is MPEG-2 Video Main Profile and Main Level?
  28. 17. Does anybody actually use the scalability modes?
  29. 18. What's the difference between Field and Frame pictures?
  30. 19. What do B-pictures buy you?
  31. 20. Why do some people hate B-frames?
  32. 21. Why was the 16x16 area chosen?
  33. 22. Why was the 8x8 DCT size chosen?
  34. 23. What is motion compensated prediction, and why is it a pain?
  35. 24. What are the various prediction modes in MPEG-2?
  36. 24.1 Frame:
  37. 24.2 Field predictions in frame-coded pictures:
  38. 24.3 Field predictions in field-coded pictures:
  39. 24.4 16x8 predictions in field-coded pictures:
  40. 24.5 Dual Prime prediction in frame and field-coded pictures
  41. 24.6 Field and frame organized macroblocks:
  42. 25. How do you tell a MPEG-1 bitstream from a MPEG-2 bitstream?
  43. 26. What is the reasoning behind MPEG syntax symbols?
  44. 27. Why bother to research compressed video when there is a standard?
  45. 28. Where can I get a copy of the latest MPEG-2 draft?
  46. 29. What are the latest working drafts of MPEG-2 ?
  47. 30. What is the latest version of the MPEG-1 documents?
  48. 31. What is the evolution of ISO standard documents?
  49. 32. Where is a good introductory paper to MPEG?
  50. 33. What are some journals on related MPEG topics ?
  51. 34. Is there a book on MPEG video?
  52. 35. Is it MPEG-2 (Arabic numbers) or MPEG-II (roman)?
  53. 36. What happened to MPEG-3?
  54. 37. What is MPEG-4?
  55. 38. What are the scaleable modes of MPEG-2?
  56. 39. Why MPEG-2?  Wasn't MPEG-1 enough?
  57. 40. What did MPEG-2 add to MPEG-1 in terms of syntax/algorithms ?
  58. 41. How do MPEG and JPEG differ?
  59. 42. How do MPEG and H.261 differ?
  60. 43. Is H.261 the de facto teleconferencing standard?
  61. 44. What is the TM rate control and adaptive quantization technique ?
  62. 45. How does the TM work?
  63. 46. What is a good motion estimation method, then?
  64. 47. Is exhaustive search "optimal" ?
  65. 48. What are some advanced encoding methods?
  66. 49. Is so-and-so really MPEG compliant ?
  67. 50. What are the tell-tale MPEG artifacts?
  68. 51. Where are the weak points of MPEG video ?
  69. 52. What are some myths about MPEG?
  70. 53. What is the color space of MPEG?
  71. 54. Don't you mean 4:1:1 ?
  72. 55. Why did MPEG choose 4:2:0 ? Isnt 4:2:2 the standard for TV?
  73. 56. What is the precision of MPEG samples?
  74. 57. What is all the fuss with cositing of chroma components?
  75. 58. How would you explain MPEG to the data compression expert?
  76. 59. How does MPEG video really compare to TV, VHS, laserdisc ?
  77. 60. What are the typical MPEG-2 bitrates and picture quality?
  78. 61. At what bitrates is MPEG-2 video optimal?
  79. 62. Why does film perform so well with MPEG ?
  80. 63. What is the best compression ratio for MPEG ?
  81. 64. Can MPEG be used to code still frames?
  82. 65. Is there an MPEG file format?
  83. 66. What are some pre-processing enhancements ?
  84. 67. Why use these "advanced" pre-filtering techniques?
  85. 68. What about post-processing enhancements?
  86. 69. Can motion vectors be used to measure object velocity?
  87. 70. How do you code interlaced video with MPEG-1 syntax?
  88. 71. Is MPEG patented?
  89. 72. How many cable box alliances are there?
  90. 73. Will there be an MPEG video tape format?
  91. 74. Where will be see MPEG in everyday life?
  92. 75. What is the best compression ratio for MPEG ?
  93. 76. Is there a MPEG CD-ROM format?
  94.  
  95. 1. MPEG is a DCT based scheme, right? 
  96.  
  97. A. The DCT and Huffman algorithms receive the most press coverage (e.g.
  98.    "MPEG is a DCT based scheme with Huffman coding"), but are in fact
  99.    less significant when compared to the variety of coding modes
  100.    signaled to the decoder as context-dependent side information.
  101.  
  102. 2. What does the MPEG video syntax feature that codes video efficiently?
  103.  
  104.  A. Here are some examples of statistical conditions and how they are 
  105.    addressed by their syntax counterparts:
  106.  
  107.  1. Occlusion:  forwards or backwards temporal prediction in B pictures.
  108.  
  109.  2. Smooth optical flow fields:  variable length coding of 1-D prediction 
  110.     errors of motion vectors.
  111.  
  112.  3. Interblock spatial correlation: 1-D prediction of DC coefficients in 
  113.     contiguous group of intra-coded macroblocks.
  114.  
  115.  4. temporal correlation:  variable on/off coding of prediction error
  116.     at the macroblock (no coded block pattern macroblock type) or
  117.     individual block (63-state coded block pattern) layer.
  118.  
  119.  5. Temporal de-correlation: forward, backwards, or bidirectional 
  120.     prediction.
  121.  
  122.  6. Content dependent quality: macroblock quantization_scale (a.k.a. mquant)
  123.  
  124.  7. Sub-sample temporal prediction accuracy: bi-linearly interpolated
  125.     (filtered) "half-pel" block predictions.
  126.  
  127.  8. Local spatial correlations: 8x8 2-D DCT.
  128.  
  129.  9. Local adaptivity: regular non-overlapping grid of blocks and 
  130.     macroblocks.
  131.  
  132.  10. Limited motion activity: skipped macroblocks in P pictures.
  133.  
  134.  11. Co-planar motion: skipped macroblocks in B pictures.
  135.  
  136.  12. Human Visual response to spatial frequencies: lossy scalar
  137.      quantization of DCT coefficients.
  138.  
  139.  
  140. 3. How does the syntax provide robustness against errors ?
  141.  
  142.  There is a limited amount of redundancy in the MPEG side-information
  143.  stream which permits resynchronization:
  144.  
  145.  1. Byte-aligned start codes in the coded bitstream.
  146.  2. End of block codes in coded blocks.
  147.  3. Slices.
  148.  4. slice_vertical_position embedded as sub-field within slice start codes.
  149.  5. slices commencing at regular locations in picture (MPEG-2)
  150.  
  151. 4. What is the significance of each layer in MPEG video ?
  152.  
  153.  Sequence:
  154.  Set of pictures sharing same sampling dimensions, bit rate, 
  155.  chromaticy (MPEG-1), quantization matrices (MPEG-1 only).
  156.  
  157.  Group of Pictures:
  158.  Random access point giving SMPTE time code within sequence. 
  159.  Guaranteed to start with an I picture.
  160.  
  161.  Picture:
  162.  Samples of a common plane -- "captured" from the same time instant.
  163.         New set of quantization matrices (MPEG-2 only)
  164.  
  165.  Slice:  
  166.  Error resynchronization unit of macroblocks.  
  167.  At the commencement of a slice, all inter-macroblock coding 
  168.         dependencies are reset.  Likewise, all macroblocks within a common 
  169.         slice can be dependently coded.
  170.  
  171.  Macroblock:
  172.  Least common multiple of Y, Cb, Cr 8x8 blocks in 4:2:0 sampling 
  173.         structure.  For MPEG-1, the smallest granularity of temporal 
  174.         prediction. 
  175.  
  176.  Block:
  177.  Smallest granularity of spatial coding information.
  178.  
  179.  
  180. 5. How does the syntax facilitate parallelism?
  181.  
  182. A. For MPEG-1, slices may consist of an arbitrary number of
  183.  macroblocks.  They can be independently decoded once the picture
  184.  header side information is known. For parallelism below the slice
  185.  level, the coded bitstream must first be mapped into fixed-length
  186.  elements.  Further, since macroblocks have coding dependencies on
  187.  previous macroblocks within the same slice, the data hierarchy must be
  188.  pre-processed down to the layer of DC DCT coefficients.  After this,
  189.  blocks may be independently inverse transformed and quantized,
  190.  temporally predicted, and reconstructed to buffer memory.  Parallelism
  191.  is usually more of a concern for encoders.  In many encoders today,
  192.  block matching (motion estimation) and some rate control stages (such
  193.  as activity and/or complexity measures) are processed for macroblocks
  194.  independently.  Finally, with the exception that all macroblock rows
  195.  in Main Profile MPEG-2 bitstreams must contain at least one slice, an
  196.  encoder has the freedom to choose the slice structure.
  197.  
  198. 6. I hear the encoder is not part of the standard?
  199.  
  200. A. The encoder rests just outside the normative scope of the standard, 
  201.    as long as the bitstreams it produces are compliant.  The decoder,
  202.    however, is almost deterministic: a given bitstream should
  203.    reconstruct to a unique set of pictures. However, since the IDCT 
  204.    function is the ONLY non-normative stage in the decoder, an
  205.    occasional error of a Least Significant Bit is permitted. The designer 
  206.    is free to choose among many DCT algorithms and implementations.  The 
  207.    IEEE 1180 test referenced in Annex A of the MPEG-1 (ISO/IEC 11172-2) and 
  208.    MPEG-2 (ISO/IEC 13818-2) Video specifications spells out the
  209.    statistical mismatch tolerance between the Reference IDCT, which
  210.    is a separable 8x1 "Direct Matrix" DCT implemented with 64-bit floating 
  211.    point accuracy, and the IDCT you are testing for compliance.
  212.  
  213. 7. Are some encoders better than others?
  214.  
  215.  A. Definately. For example, the motion estimation search range of a has 
  216.     great influence over final picture quality.  At a certain point a very 
  217.     large range can actually become detrimental (it may encourage large 
  218.     differential motion vectors). Practical ranges are usually between 
  219.     +/- 15 and +/- 32.  As the range doubles, for instance, the search area 
  220.     quadruples.
  221.  
  222.     Rate control marks a second tell-tale area where some encoders perform 
  223.     significantly better than others. 
  224.  
  225.     And finally, the degree of "pre-processing" (now a popular buzzword in the 
  226.     business) signals that the encoder belongs to an elite marketing class.
  227.  
  228. 8. Can MPEG-1 encode higher sample rates than 352 x 240 x 30 Hz ?
  229.  
  230. A. Yes. The MPEG-1 syntax permits sampling dimensions as high as 4095 x 
  231.    4095 x 60 frames per second.    The MPEG most people think of as "MPEG-1"
  232.    is really a kind of subset known as Constrained Parameters bitstream (CPB).
  233.  
  234. 9. What are Constrained Parameters Bitstreams (CPB) for video?
  235.  
  236. A. MPEG-1 CPB are a limited set of sampling and bitrate parameters 
  237.    designed to normalize decoder computational complexity, buffer size, and 
  238.    memory bandwidth while still addressing the widest possible range of 
  239.    applications. The parameter limits were intentionally designed so that a 
  240.    decoder implementation would need only 4 Megabits of DRAM.
  241.  
  242.  Parameter       Limit
  243.  --------------  ---------------------------
  244.  pixels/line     704 
  245.  lines/picture   480 or 576
  246.  pixels*lines    352*240 or 352*288
  247.  picture rate    30 Hz
  248.  bit rate        1.862million bits/sec
  249.  buffer size     40 Kilobytes (327,680 bits)
  250.  
  251.  The sampling limits of CPB are bounded at the ever popular SIF rate:
  252.  396 macroblocks (101,376 pixels) per picture if the picture rate is
  253.  less than or equal to 25 Hz, and 330 macroblocks (84,480 pixels) per
  254.  picture if the picture rate is 30 Hz. The MPEG nomenclature loosely
  255.  defines a "pixel" or "pel" as a unit vector containing a complete
  256.  luminance sample and one fractional (0.25 in 4:2:0 format) sample from
  257.  each of the two chrominance (Cb and Cr) channels. Thus, the
  258.  corresponding bandwidth figure can be computed as:
  259.  
  260.   352 samples/line x 240 lines/picture x 30 pictures/sec x 1.5 samples/pixel 
  261.  
  262.  or 3.8 Ms/s (million samples/sec) including chroma, but not including 
  263.  blanking intervals.  Since most decoders are capable of sustaining 
  264.  VLC decoding at a faster rate than 1.8 Mbit/sec, the coded video bitrate
  265.  has become the most often waived parameter of CPB. An encoder which 
  266.  intelligently employs the syntax tools should achieve SIF quality saturation 
  267.  at about 2 Mbit/sec, whereas an encoder producing streams containing 
  268.  only I (Intra) pictures might require as much as 4 Mbit/sec to achieve the 
  269.  same video quality.
  270.  
  271. 10. Why is Constrained Parameters so important?
  272.  
  273.  A. It is an optimum point that allows (just barely) cost effective
  274.  VLSI implementations in 1992 technology (0.8 microns).  It also
  275.  implies a nominal guarantee of interoperability for decoders and
  276.  encoders.  Since CPB is the most popular canonical conformance point,
  277.  MPEG devices which are not capable of at least meeting SIF rates are
  278.  usually not considered to be true MPEG.
  279.  
  280.  Picutre buffers (i.e. "frame stores") and coded data buffering 
  281.  requirements for MPEG-1 CPB fit just snugly into 4 Mbit of memory (DRAM).
  282.  
  283. 11. Who uses constrained parameters bitstreams?
  284.  
  285. A. Principal CPB applications are Compact Disc video (White Book or CD-I) and 
  286.    desktop video.  Set-top TV decoders fall into a higher sampling rate 
  287.    category known as "CCIR 601" or "Broadcast rate," which as a rule of
  288.    thumb, has sampling dimensions and bandwidth 4 times that of SIF or 
  289.    CPB.
  290.  
  291.  
  292. 12. Are there ways of circumventing constrained parameters bitstreams for SIF 
  293.   class applications and decoders ?
  294.  
  295.  A. Yes, some.  Remember that CPB limits pictures by macroblock count. 
  296.   416 x 240 x 24 Hz sampling rates are still within the constraints, but this 
  297.   would only be of benefit in NTSC (240 lines/field) displays. Deviating from 
  298.   352 samples/line could throw off many decoder implementations which possess 
  299.   limited horizontal sample rate conversion abilities. Some decoders do in fact 
  300.   include a few rate conversion modes, with a filter usually implemented via 
  301.   binary taps (shifts and adds).  Likewise, the target sample rates are usually 
  302.   limited or ratios (e.g. 640, 540, 480 pixels/line, etc.). Future MPEG 
  303.   decoders will likely include on-chip arbitrary sample rate converters, 
  304.   perhaps capable of operating in the vertical direction (although there is 
  305.   little need of this in applications using standard TV monitors, with the 
  306.   possible exception of windowing in cable box graphical user interfaces).
  307.  
  308.   Also, many CD videos are letterboxed at the 16:9 aspect ratio.  The
  309.   actual coded and display sampling dimensions are 384 x 216 (note
  310.   384/216 = 16/9).  These videos are typically movies and are therefore coded
  311.   at 24 frames/sec.
  312.  
  313. 13. Are there any other conformance points like CPB for MPEG-1?
  314.  A. Undocumented ones, yes.  A second generation of decoder chips
  315.   emerged on the market   about 1 year after the first wave of
  316.   SIF-class decoders.  Both LSI Logic and SGS-Thomson introduced CCIR
  317.   601 class MPEG-1 video decoders to fill in the gap between canonical
  318.   MPEG-1 (SIF) and the emergence of Main Profile at Main Level (CCIR
  319.   601) MPEG-2 decoders.  Under non-disclosure agreement, C-Cube had the
  320.   CL-950, although since Q2'94, the CL-9100 is now the full MPEG-2
  321.   successor in production.
  322.  
  323. 14. What frame rates are permitted in MPEG?
  324. A. A limited set is available for the choosing in MPEG-1, although "tricks" 
  325.  could be played with Systems-layer Time Stamps to convey non-standard picture
  326.  rates.  The set is: 23.976 Hz (3-2 pulldown NTSC), 24 Hz (Film), 
  327.  25 Hz (PAL/SECAM or 625/60 video), 29.97 (NTSC), 30 Hz (drop-frame NTSC 
  328.  or component 525/60), 50 Hz (double-rate PAL), 59.97 Hz (double rate NTSC), 
  329.  and 60 Hz (double-rate drop-frame NTSC/component 525/60 video).  
  330.  
  331.  Only 23.976, 24, 25, 29.97, and 30 Hz are within the conformance space of
  332.  of Constrained Parameter Bitstreams and Main Level.  
  333.  
  334. 15. How are various levels of interlace and progressive prediction modes 
  335.     organized in MPEG-2 ? 
  336.  
  337.  
  338.             MPEG-2 sequence
  339.        /         \
  340.   progressive            interlaced sequence
  341.   sequence              /                    \
  342.     Field picture            Frame picture
  343.        /            \
  344.          Frame or field pred.     Frame MB prediction only
  345.     /         \                                
  346.      Field dct      Frame dct 
  347.  
  348.  
  349. 16. What is MPEG-2 Video Main Profile and Main Level?
  350.  
  351. A. MPEG-2 Video Main Profile and Main Level is analogous to MPEG-1's CPB,with 
  352.  sampling limits at CCIR 601 parameters (720x480x30 Hz  or  720x576x24
  353.  Hz).  "Profiles" limit syntax (i.e. algorithms), whereas "Levels"
  354.  limit coding parameters (sample rates, frame dimensions, coded
  355.  bitrates, etc.). Together, Video Main Profile and Main Level
  356.  (abbreviated as MP@ML) normalize complexity within feasible limits of
  357.  1994 VLSI technology (0.5 micron), yet still meet the needs of the
  358.  majority of application users. MP@ML is the conformance point for most
  359.  cable and satellite TV systems, for example.
  360.  
  361.  Profiles
  362.  ======
  363.  Simple:  I and P pictures only. 4:2:0 sampling ratio. 8,9, or 10 bits DC 
  364.           precision. Originally intended for use in cable TV applications
  365.           not wanting to spend only 8 Mbits of DRAM.
  366.  
  367.  Main:    I, P, and B pictures.  Dual Prime with no B-pictures only.  4:2:0 
  368.           sampling ratio. 8, 9, or 10 bits sample precision.
  369.  
  370.  SNR:     scalable coding.
  371.  
  372.  Spatial: scalable coding.
  373.  
  374.  High:    8,9,10, or 11 bits sample precision.  4:2:2 and 4:4:4 sampling 
  375.           ratio.
  376.  
  377.  
  378.  Level
  379.  ====
  380.  Simple:  SIF video rate (3.041280 Mhz),  4 Mbit/sec,  0.489472 Mbit
  381.           VBV buffer, 64 vertical in frame,  32 Vertical in field, 
  382.           1:7 fcode hor.
  383.  
  384.  Main:    CCIR 601 video rate (10.368 Mhz), 15 Mbit/sec,  1.835008 Mbit VBV 
  385.           buffer, 128 V in frame, 64 V in field, 1:8 f_code Hor.
  386.  
  387.  High 1440: 1440 x 1152 x 30 Hz (47.0016 Mhz), 60 Mbit/sec.   7.340032 Mbit 
  388.           VBV buffer, 128 V in Fe,  1:9 fcode H.
  389.  
  390.  High:    1920 x 1152 x 30 Hz (62.6688 Mhz), 80 Mbit/sec. 9.787392 Mbit VBV 
  391.           buffer.  1:9 fcode H
  392.  
  393. 17. Does anybody actually use the scalability modes?
  394.  
  395. A. At this time, scalability has found itself a limited number of
  396.  applications, although research is definitely underway for its use in
  397.  HDTV.  Experiments have been demonstrated in Europe where, for example,
  398.  PAL-rate video (720 x 576 x 25 fps) is embedded in the same stream as
  399.  HDTV rate video (1440 x 1152 x 25 fps). The Nov. 1992 VADIS experiment
  400.  divided the base layer (PAL) and enhancement into 4 and 16 Mbit/sec
  401.  channels, respectively. The U.S.  Grand Alliance favors HDTV
  402.  simulcasting (separate NTSC analog and digital MPEG-2 HDTV
  403.  broadcasts).  Temporal scalability is the pet scalability mode as the
  404.  possible future solution for coding  60 Hz progressive sequences while
  405.  maintaining backwards compatibility with early-wave equipment (e.g.
  406.  1920 x 1080 x 30 Hz displays) . To elaborate, the first wave receivers
  407.  of the late 1990s are expected to have decoders limited to 60
  408.  field/sec interlaced and 30 frame/second progressive reconstruction
  409.  rates.  With temporal scalability applied, 60 Hz interlaced fields would 
  410.  be coded into a 16 Mbit/sec stream starting around 1996, and later an
  411.  8 Mbit/sec enhancement layer would be similcasted, effectively
  412.  containing the coded "high pass" between 60 Hz progressive and 60 Hz
  413.  interlaced.  Several corporate mouths have been known to water at the
  414.  mention of charging the quality-conscious subscriber an extra fee for
  415.  the enhancement layer.
  416.  
  417. 18. What's the difference between Field and Frame pictures?
  418.  
  419. A. A frame-coded  picture consists of interleaved lines from both the even 
  420.    and odd display fields.  A frame picture is coded in progressive order (an 
  421.    even line, then an odd line, etc.) and in the case of MPEG-2, may 
  422.    optionally switch between field and frame coding on a macroblock basis. 
  423.    The Display Process, which is *almost* completely outside the scope of the 
  424.    MPEG specification, can chose to re-interlace the picture by displaying the 
  425.    odd and even lines at different times (16 milliseconds apart for 60 Hz 
  426.    displays).  In fact, most pictures, regardless of whether they were coded 
  427.    as a Field or Frame, end up being displayed interlaced due to the fact 
  428.    that most TV displays are interlaced.
  429.  
  430. 19. What do B-pictures buy you?
  431.  
  432. A. Since bi-directional macroblock predictions are an average of two 
  433.  macroblock areas, noise is reduced at low bit rates (like a 3-D filter, if 
  434.  you will).  At nominal MPEG-1 video (352 x 240 x 30, 1.15 Mbit/sec) rates, it 
  435.  is said that B-frames improves SNR by as much as 2 dB. (0.5 dB gain is 
  436.  usually considered worth-while in MPEG). However, at higher bit rates, B-
  437.  frames become less useful since they inherently do not contribute to the 
  438.  progressive refinement of an image sequence (i.e. not used as prediction by 
  439.  subsequent coded frames).  Regardless, B-frames are still politically 
  440.  controversial.
  441.  
  442.  B pictures are interpolative in two ways: 1. predictions in the bi-
  443.  directional macroblocks are an average from block areas of two
  444.  pictures 2. B pictures "fill in" or interpolate the 3-D video signal
  445.  over a 33 or 25 millisecond picture period without contributing to the
  446.  overall signal quality beyond that immediate point in time.  In other
  447.  words, a B picture, regardless of its internal make-up of macroblock
  448.  types, has a life limited to its immediate self.  As mentioned before,
  449.  its energy does not propagate into other frames.  In a sense, bits
  450.  spent on B pictures are wasted.
  451.  
  452.  
  453. 20. Why do some people hate B-frames?
  454.  
  455. A. Computational complexity, bandwidth, delay, and picture buffer size are 
  456.  the four B-frame Pet Peeves. Computational complexity in the decoder is 
  457.  increased since some macroblock modes require averaging between two 
  458.  block predictions.
  459.  
  460.  Worst case, memory bandwidth is increased an extra 15.2 MByte/s
  461.  (single channel 4:2:0 601 rates, not including any half pel or
  462.  page-mode overhead) for this extra directional prediction. An extra
  463.  picture buffer is needed to store the future prediction reference
  464.  (backwards prediction).  Finally, an extra picture delay is introduced
  465.  in the decoder since the frame used for backwards prediction needs to be
  466.  transmitted to the decoder and reconstructed before the intermediate 
  467.  B-pictures can be decoded and displayed.
  468.  
  469.  Cable television (e.g. -- more like i.e.-- General Instruments) have
  470.  been particularly adverse to B-frames since, for CCIR 601 rate video,
  471.  the extra picture buffer pushes the decoder DRAM memory requirements
  472.  past the magic 8- Mbit (1 Mbyte) threshold into the evil realm of 16
  473.  Mbits (2 Mbyte)....  although 8-Mbits is fine for 352 x 480 B picture
  474.  sequence. However, cable often forgets that DRAM does not come in
  475.  convenient high-volume (low cost) 8- Mbit packages as does friendly
  476.  4-Mbit and 16-Mbit packages.  In a few years, the cost difference
  477.  between 16 Mbit and 8 Mbit will become insignificant compared to the
  478.  bandwidth savings gain through higher compression.  For the time
  479.  being, some cable boxes will start with 8-Mbit and allow future
  480.  drop-in upgrades to the full 16-Mbit.
  481.  
  482. 21. Why was the 16x16 area chosen?
  483.  
  484. A.  The 16x16 area corresponds to the Least Common Multiple (LCM) of 8x8 
  485.  blocks, given the normative 4:2:0 chroma ratio. Starting with medium 
  486.  size images, the 16x16 area provides a good balance between side 
  487.  information overhead & complexity and motion compensated prediction 
  488.  accuracy.  In gist, 16x16 seemed like a good trade-off.
  489.  
  490. 22. Why was the 8x8 DCT size chosen?
  491.  A. Experiments showed little compaction gains could be acheived with larger 
  492.     sizes, especially when considering the increased implementation
  493.     complexity. A fast DCT algorithm will require roughly double the
  494.     arithmetic operations per sample when the linear transform point
  495.     size is doubled. Naturally, the best compaction efficiency has been
  496.     demonstrated using locally adaptive block sizes (e.g. 16x16, 16x8,
  497.     8x8, 8x4, and 4x4) [See Gary Sullivan and Rich Baker "Efficient Quadtree
  498.     Coding of Images and Video," ICASSP 91, pp 2661-2664.]. 
  499.  
  500.     Inevitably, this introduces additional side information overhead and 
  501.     forces the decoder to implement programmable or hardwired recursive 
  502.     DCT algorithms. If the DCT size becomes too large, then more edges
  503.     (local discontinuities) and the like become absorbed into the
  504.     transform block, resulting in wider propagation of Gibbs (ringing) and
  505.     other phenomena.  Finally, with larger transform sizes, the DC term is
  506.     even more critically sensitive to quantization noise.
  507.  
  508.  
  509. 23. What is motion compensated prediction, and why is it a pain?
  510.  
  511.  A. MCP in the decoder can be thought of as having four stages:
  512.  
  513.  1. Motion vector computation
  514.  2. Prediction retrieval
  515.     various predictions are 16x16, 16x8, 8x4, 8x8 plus any half-pel 
  516.     overhead (e.g. 17x16, 17x17, etc).
  517.  3. Filtering
  518.   3.1 Forming half-pel predictions through bi-linear interpolation.
  519.   3.2 Averaging two predictions together (B macroblocks, Dual Prime)
  520.  4. Combination and ordering
  521.   4.1 combining 1 or 2 predictions from stage 3. into upper and 
  522.       lower halves of the macroblock (e.g.16 x 8, field in frame)
  523.   4.2 interleaving or grouping together odd and even lines in frame 
  524.       coded pictures (dct_type).
  525.  
  526.  The final, combined prediction that is sent to the frame buffer is always 
  527.  a 16x16 block of luminance and and 8x8 block of chrominance, just like we 
  528.  experience in MPEG-1.
  529.  
  530.  A single motion vector can be associated with each block prediction source, 
  531.  hence a macroblock can have as many as 4 motion vectors (each in turn having
  532.  a horizontal and vertical element).
  533.  
  534. 24. What are the various prediction modes in MPEG-2?
  535.  
  536.  
  537. MB Prediction mode  filtered pixel      Count for mono-directional prediction
  538.                     block size          a. Blocks      b.  Motion vectors
  539. Frame pictures:     
  540.  Frame              16x16               1              1
  541.  Field              16x8                2              2
  542.  Dual Prime         16x8                2              2 + dmv
  543.  
  544. Field pictures:
  545.  Field              16x16               1              1
  546.  16x8               16x8                2              2
  547.  Dual Prime         16x16               2              1 + dmv
  548.  
  549.  
  550.  24.1 Frame:
  551.  Predictions are formed from a 16 x 16 pixel area in a previously
  552.  reconstructed frame. Identical to MPEG-1. There can be only one
  553.  filtered 16x16 block prediction source in forward or backward
  554.  predicted macroblocks, and two sources in bi-directional macroblocks.
  555.  The prediction frame itself may have been coded as either a frame or
  556.  two fields, however once a frame is reconstructed, it is simply a
  557.  frame as far as future pictures are concerned.
  558.  
  559.  24.2 Field predictions in frame-coded pictures:
  560.  Separate predictions are formed for the top (8 lines from odd field)
  561.  and bottom (8 lines from the even field) portions of the macroblock.
  562.  The separate field predictions are specified by two motion vectors,
  563.  each of which may select either the top or bottom field of the
  564.  reference picture (field_select). A total of two motion vectors can be
  565.  specifed in the macroblock header forward or backward predictions, and
  566.  a total four in bi-directional macroblocks.  Both the top and bottom
  567.  field blocks share the same macroblock type side information.
  568.  
  569. 24.3 Field predictions in field-coded pictures:
  570.  
  571.  Predictions are formed from the two most recently decoded fields.  Filtered
  572.  block prediction sizes are 16x16, however the 16 lines have a corresponding 
  573.  projection onto a 16x32 pixel area of the stored frame. One motion vector 
  574.  for each forward or backward prediction, (total of two for bi-directional.)
  575.  
  576. 24.4   16x8 predictions in field-coded pictures:
  577.  
  578.  Like field macroblocks in frame-coded pictures, the upper and lower 8
  579.  lines in this macroblock mode can have different predictions (hence
  580.  two motion vectors).  This mode compensates for the reduced temporal
  581.  prediction precision of field picture macroblocks (a result of the fact
  582.  that fields inherently possess half the number of lines that frames
  583.  do).  Thanks to 16x8, the field prediction area projected onto a frame
  584.  is restored to 16 lines.  Total of 2 motion vectors for backwards or 
  585.  forwards, 4 for bi-directional.
  586.  
  587. 24.5 Dual Prime prediction in frame and field-coded pictures
  588.  
  589.  Predictions for the current macroblock are formed from the average of
  590.  two 16 x 8 line areas from the two most recently decoded fields. Dual
  591.  Prime was devised as an alternative for B pictures in low delay
  592.  applications, but still offers many of the prediction-estimation turn
  593.  signal quality benefits of B-pictures. Although the Dual Prime mode 
  594.  requires one less prediction picture buffer than B pictures, it still 
  595.  retains the same instantaneous prediction bandwidth of a B pictures. 
  596.  
  597.  As an alternative to coding separate motion vectors for each of the
  598.  upper and lower 16x8 areas, a full motion vector is specified which is
  599.  used to form the address of the prediction block which has the same
  600.  parity as the macroblock field (top or bottom 16x8 region) currently
  601.  being reconstructed. A horizontal and vertical differential vector
  602.  with a range of  +1, 0, or -1 (which is not predicted but is variable
  603.  length coded) is added to the scaled vector of the same parity.
  604.  
  605.  vector_of_the_same_parity = transmitted vector
  606.  vector_of_the_opposite_parity = scaled_transmitted_vector + 
  607.    differential vector  
  608.  
  609.  A Dual Prime (aka DMC) macroblock in a frame-coded picture will have total of
  610.  two full motion vectors (same parity) and two differential vectors (DMV).
  611.  A DMC MB in Field-coded pictures has 1 full motion vector, and 1 DMV.
  612.  Due to the high prediction bandwidth overhead, Main Profile restricts the
  613.  use of Dual Prime prediction to immediate P picture sequences only.  High
  614.  Profile permits use of Dual Prime in B pictures.  However in Main
  615.  Profile, B pictures may follow or proceed P pictures with Dual Prime,
  616.  as long as there are no B pictures in between the reference picture
  617.  and any P pictures with at least one Dual Prime macroblock.
  618.  
  619.        I  DP  DP  B  B  P  DP  DP     is legal
  620.        I  DP  DP  B  B DP  DP  DP     is illegal.
  621.  
  622. 24.6 Field and frame organized macroblocks:
  623.  
  624.  Originally intended as a cheaper means of achieving
  625.  field-decorrelation in frame-coded pictures without the fussy overhead
  626.  of separate field prediction estimates, the dct coefficients (coded
  627.  quantized prediction error for a given macroblock) may be organized
  628.  into either a field or frame pattern.  Essentially this means that the
  629.  prediction error for the combined 16x16 macroblock may be grouped into
  630.  field or frame blocks. A bit in the macroblock header (dct_type)
  631.  indicates whether the upper and lower portions of the macroblock are
  632.  to be interleaved (frame organized) or remain separated (field
  633.  organized).
  634.  
  635. 25. How do you tell a MPEG-1 bitstream from a MPEG-2 bitstream?
  636.  
  637. A. All MPEG-2 bitstreams must contain specific extension headers that
  638.   *immediately* follow MPEG-1 headers.  At the highest layer, for
  639.   example, the MPEG-1 style sequence_header() is followed by
  640.   sequence_extension() exclusive to MPEG-2. Some extension headers are
  641.   specific to MPEG-2 profiles.  For example, sequence_scalable_extension() 
  642.   is not allowed in Main Profile bitstreams.
  643.  
  644.   A simple program need only scan the coded bitstream for byte-aligned start 
  645.   codes to determine whether the stream is MPEG-1 or MPEG-2.
  646.  
  647. 26. What is the reasoning behind MPEG syntax symbols?
  648.  
  649. A. Here are some of the Whys and Wherefores of MPEG symbols: 
  650.  
  651.  Start codes:
  652.  These 32-bit byte-aligned codes provide a mechanism for cheaply 
  653.  searching coded bitstreams for commencement of various layers of video 
  654.  without having to actually parse variable-length codes or perform any 
  655.  decoder arithmetic.  Start codes also provide a mechanism for 
  656.  resynchronization in the presence of bit errors.
  657.  
  658.  Coded block pattern:
  659.  (CBP --not to be confused with Constrained Parameters!)  When the
  660.  frame prediction is particularly good, the displaced frame difference
  661.  (DFD, or temporal macroblock prediction error) tends to be small,
  662.  often with entire block energy being reduced to zero after
  663.  quantization.  This usually happens only at low bit rates.  Coded
  664.  block patterns prevent the need for transmitting EOB symbols in those
  665.  zero coded blocks.  Coded block patterns are transmitted in the
  666.  macroblock header only if the macrobock_type flag indicates so.
  667.  
  668.  constant DC stepsize: 
  669.  Each block of a INTRA CODED macroblock has a quantized DC coefficient
  670.  which is differentially coded with the previous DC block value of the 
  671.  same component. The quantization stepsize is fixed for the duration
  672.  of the picture, and is indicated in the picture_extension_header() in 
  673.  MPEG-2. In MPEG-1, the stepsize is always "8".  A fixed size is used
  674.  becuase of the very fact that the value is predicted. 
  675.  
  676.  
  677.  DCT_coefficient_first:
  678.  With coded block patterns in NON-INTRA macroblocks signaling all
  679.  possible combinations of all-zero valued blocks, the dct_coef_first
  680.  mechanism assigns a different meaning to the VLC codeword (run = 0,
  681.  level =+/- 1) that would otherwise represent EOB (10) as the first 
  682.  coefficient in the zig-zag sequence.
  683.  
  684.  End of Block: 
  685.  Saves unnecessary run-length codes.  At optimal bitrates, there tends to 
  686.  be few AC coefficients concentrated in the early stages of the zig-zag 
  687.  vector. In MPEG-1, the 2-bit length of EOB implies that there is an
  688.  average of only 3 or 4 non-zero AC coefficients per block.  In MPEG-2
  689.  Intra (I) pictures, with a 4-bit EOB code in Table 1, this estimate is
  690.  between 9 and 16 coefficients. Since EOB is required for all coded
  691.  blocks, its absence can signal that a syntax error has occurred in the
  692.  bitstream.
  693.  
  694.  Macroblock stuffing:
  695.  A genuine pain for VLSI implementations, macroblock stuffing was
  696.  introduced   to maintain smoother, constant bitrate control in
  697.  MPEG-1.  However, with normalized complexity/activity measures and
  698.  buffer management performed a priori (before coding of the macroblock,
  699.  for example) and local monitoring of coded data buffer levels now
  700.  common operations in encoders, (e.g. MPEG-2 encoder Test Model), the
  701.  need for such localized smoothing evaporated. Stuffing can be achieved
  702.  through slice start code padding if required. A good rule of thumb: if
  703.  you find often yourself wishing for stuffing more than once per slice,
  704.  you probably don't have a very good rate control algorithm.  Nonetheless,
  705.  to avoid any temptation, macroblock stuffing is now illegal in MPEG-2  
  706.  (All profiles!)
  707.  
  708.  MPEG's modified Huffman VLC tables:
  709.  The VLC tables in MPEG are not Huffman tables in the true sense of
  710.  Huffman coding, but are more like the tables used in Group 3 fax. They
  711.  are entropy constrained, that is, non-downloadable and optimized for a
  712.  limited range of bit rates (sweet spots).  With the exception of a few
  713.  codewords, the larger tables were carried over from the H.261 standard
  714.  drafted in the year 1990.  MPEG-2 added an "Intra table," also called
  715.  "Table 1".  Note that the dct_coefficient tables assume positive/negative 
  716.  coefficient pmf symmetry.
  717.  
  718.  
  719. 27. Why bother to research compressed video when there is a standard?
  720. A. Despite the fact that a comprehensive worldwide standard now exists for
  721.    digital video, many areas remain wide open for research:  advanced 
  722.    encoding and pre-processing, motion estimation, macroblock decision 
  723.    models, rate control and buffer management in editing environments, 
  724.    implementation complexity reduction, etc. Many areas have yet to 
  725.    be solved ... (and discovered)..
  726.  
  727. 28. Where can I get a copy of the latest MPEG-2 draft?
  728.  
  729.  Contact your national standards body (e.g. ANSI Sales in New York City for 
  730.  the U.S., British Standards Institute in the UK, etc.).  A number of private 
  731.  organizations such as Globecom offer ISO documents.
  732.  
  733. 29. What are the latest working drafts of MPEG-2 ?
  734.  
  735.  To date, (March 1994) MPEG-2 has reached voting document of the 
  736.  Draft International Standard for:
  737.  
  738.  Information Technology -- Generic Coding of Moving Pictures and 
  739.  Associated Audio. Recommendation H.262, ISO/IEC Draft International Standard 
  740.  13818 Part 2: Video [produced March 25, 1994, not yet approved by national
  741.  standards body voting process].
  742.  
  743.  Systems and Audio are still at Committee Draft -- Systems: Part 1 (13818-1), 
  744.  and Audio is Part 3 (13818-1).  However, a revised document was produced at 
  745.  the Paris meeting (March 24, 1994).
  746.  
  747.  A committee draft for Conformance (Part 4) is expected in Novemeber 1994, 
  748.  as well as the Technical Report on Software Simulation (Part 5).
  749.  
  750.  Part 5 is in fact partly comprised of the MPEG Software Simulation Code.
  751.  
  752.  In addition, several new parts to MPEG-2 were approved at the Paris 
  753.  meeting: 
  754.  
  755.  Part 6:  DSMCC (Digital Storage Medium Command and Control)
  756.  Part 7:  Audio Extension for Non-Backwards Comptible Coding
  757.  
  758. 30. What is the latest version of the MPEG-1 documents?
  759.  
  760. A. Systems (ISO/IEC IS 11172-1), Video (ISO/IEC IS 11172-2), and Audio 
  761. (ISO/IEC IS 11172-3) have reached the final document stage: the
  762. Internation Standard.  Part 4, Conformance Testing, is currently DIS
  763. (ISO/IEC DIS 11172-4).
  764.  
  765.  
  766. 31. What is the evolution of ISO standard documents?
  767.  
  768. A. In chronological order:
  769.  
  770.    ISO/Committee notation                      Author's notation        
  771.    ---------------------------------------     -------------------------
  772.    Problem (unofficial first stage)            Barroom Witticism
  773.    New work Item (NI)                          Napkin Item
  774.    New Proposal (NP)                           Need Permission
  775.    Working Draft (WD)                          We're Drunk
  776.    Committee Draft (CD)                        Calendar Deadlock
  777.    Draft International Standard (DIS)          Doesn't Include Substance
  778.    International Standard (IS)                 Induced patent Statements
  779.  
  780. 32. Where is a good introductory paper to MPEG?
  781.  
  782.  Didier Le Gall, "MPEG: A Video Compression Standard for Multimedia
  783.  Applications," Communications of the ACM, April 1991, Vol.34, No.4, pp. 47-58
  784.  
  785. 33. What are some journals on related MPEG topics ?
  786.  
  787.  IEEE Transactions on Consumer Electronics
  788.  IEEE Transactions on Broadcasting
  789.  IEEE Transactions on Circuits and Systems for Video Technology
  790.  Advanced Electronic Imaging
  791.  Electronic Engineering Times (EE Times -- more tabloid coverage.  
  792.     unfortunately contains attack columns by Richard Doherty)
  793.  IEEE Int'l Conference on Acoustics, Speech, and Signal Processing (ICASSP)
  794.  International Broadcasting Convention (IBC)
  795.  Society of Motion Pictures and Television Engineers (SMPTE) Journal
  796.  SPIE conference on Visual Communications and Image Processing
  797.  SPIE conference on Video Compression for Personal Computers
  798.  
  799. 34. Is there a book on MPEG video?
  800.  
  801.  A. Yes, there will be a book published sometime in late 1994 by the
  802.     same authors who brought you the JPEG book (Bill Pennebaker, Joan
  803.     Mitchell). Didier Le Gall (MPEG Video subgroup chairman, 1989-1994)
  804.     will be an additional co-author, insuring digressions into such
  805.     areas as arithmetic coding aspects be kept to a minimum :-)
  806.  
  807. 35. Is it MPEG-2 (Arabic numbers) or MPEG-II (roman)?
  808.  
  809.  Committee insiders most often use the Arabic notation with the
  810.  hyphen, e.g. MPEG-2.  Only the most retentive use the official
  811.  designation: Phase 2.  In fact, M.P.E.G. itself is a nickname.  The
  812.  official title is: ISO/IEC JTC1 SC29 WG11.  The militaristic lingo
  813.  has  so far managed to keep the enemy (DVI) confused and out of the
  814.  picture.
  815.  
  816.    ISO:  International Organization for Standardization
  817.    IEC:  International Electrotechnical Commission
  818.    JTC1: Joint Technical Committee 1
  819.    SC29: Sub-committee 29
  820.    WG11: Working Group 11  (moving pictures with... uh, audio)
  821.  
  822. 36. What happened to MPEG-3?
  823.  
  824.  MPEG-3 was to have targeted HDTV applications with sampling dimensions
  825.  up to 1920 x 1080 x 30 Hz and coded bitrates between 20 and 40
  826.  Mbit/sec.  It was later discovered that with some (syntax compatible)
  827.  fine tuning, MPEG-2 and MPEG-1 syntax worked very well for HDTV rate
  828.  video.  The key is to maintain an optimal balance between sample rate
  829.  and coded bit rate.
  830.  
  831.  Also, the standardization window for HDTV was rapidly closing.  Europe
  832.  and the United States were on the brink of committing to
  833.  analog-digital subnyquist hybrid algorithms (D-MAC, MUSE, et al).  By
  834.  1992, European all-digital projects such as HD-DIVINE and VADIS
  835.  demonstrated better picture quality with respect to bandwidth using
  836.  the MPEG syntax.  In the United States, the Sarnoff/NBC/Philips/Thomson 
  837.  HDTV consortium had used MPEG-1 syntax from the beginning of its 
  838.  all-digital proposal, and with the exception of motion artifacts 
  839.  (due to limited search range in the encoder), was deemed to have the best 
  840.  picture quality of all three digital proponents in the early 1993 bake-off. 
  841.  HDTV is now part of the MPEG-2 High-1440 Level and High Level toolkit.
  842.  
  843. 37. What is MPEG-4?
  844.  MPEG-4 targets the Very Low Bitrate applications defined loosely as
  845.  having picture sampling dimensions up to 176 x 144 (QSIF) and coded
  846.  bit rates between 4800 and 64,000 bits/sec.   This new standard would
  847.  be used, for example, in low bit rate videotelephony/conferencing over 
  848.  analog telephone lines (Plain Old Telephone System or POTS).
  849.  
  850.  This effort is in the very early stages.  Morphology, fractals, model 
  851.  based... even anal-retentive block transform coding are all in the 
  852.  offering. MPEG-4 is now in the application identification and requirements
  853.  phase. The proposals process begins in November 1994.
  854.  
  855.  
  856. 38. What are the scaleable modes of MPEG-2?
  857.  
  858.  Scaleable video is permitted only in the Spatial and SNR profiles.
  859.  Data partitioning and temporal scalability are not yet officially
  860.  part of any defined Profile, and are therefore deemed experimental.
  861.  
  862.  Currently, there are four scaleable modes in the MPEG-2 toolkit. These
  863.  modes break MPEG-2 video into different layers (base, middle, and high
  864.  layers) mostly for purposes of prioritizing video data.  For example,
  865.  the high priority channel (bitstream) can be coded with a combination
  866.  of extra error correction information and/or increased signal strength
  867.  (i.e. higher Carrier- to-Noise ratio or lower Bit Error Rate) than the
  868.  lower priority channel. For example, in HDTV, the high priority
  869.  bitstream (720 x 480) can be decoded under noise conditions were the
  870.  lower priority (1440 x 960) cannot. This is part of the "graceful
  871.  degradation concept.  Breaking a video signal into two streams (base
  872.  and enhancements) usually carries a coding-efficiency penalty,
  873.  however.  Usually less than 1.5 dB.
  874.  
  875.  Another purpose of salability is Complexity Division. For example, a 
  876.  standard TV display need only have a 720 x 480 picture decoded, whereas
  877.  a more expensive processor could decode 1440 x 960 video for HDTV 
  878.  displays. This application can be addressed through simulcasting of
  879.  a Main Profile at Main Level bitstream serving as a base layer, and
  880.  a separate spatial scalable enhancement stream at 1440 x 960 predicted
  881.  from the upsampled base layer.      
  882.  
  883. Here is a brief summary of the MPEG-2 video scalability modes:
  884.  
  885.  Spatial Scalablity-- Useful in simulcasting, and for feasible software 
  886.  decoding of the lower resolution, base layer.  This spatial domain 
  887.  method codes a base layer at lower sampling dimensions (i.e. 
  888.  "resolution") than the upper layers.  The upsampled reconstructed lower 
  889.  (base) layers are then used as prediction for the higher layers.  
  890.  
  891.  Data Partitioning-- Similar to JPEG's frequency progressive mode, only 
  892.  the slice layer indicates the maximum number of block transform 
  893.  coefficients contained in the particular bitstream (known as the 
  894.  "priority break point"). Data partitioning is a frequency domain method 
  895.  that breaks the block of 64 quantized transform coefficients into two 
  896.  bitstreams.  The first, higher priority bitstream contains the more 
  897.  critical lower frequency coefficients and side informations (such as DC 
  898.  values, motion vectors). The second, lower priority bitstream carries 
  899.  higher frequency AC data.
  900.  
  901.  SNR scalability-- SNR scalability is a frequency-domain method where
  902.  channels are coded at identical sample rates, but with differing
  903.  picture quality (achieved through macroblock quantization step sizes). 
  904.  The DCT coefficients of the higher priorty base layer can be enhanced 
  905.  with DCT coefficients of lower priority enhancement layer.   
  906.  
  907.  Temporal Scalability--- A temporal domain method useful in, e.g., 
  908.  stereoscopic video.  The first, higher priority bitstreams codes video 
  909.  at a lower frame rate, and the intermediate frames can be coded in a 
  910.  second bitstream using the first bitstream reconstruction as prediction. 
  911.  In stereoscopic vision, for example, the left video channel can be 
  912.  prediction from the right channel.
  913.  
  914.  Other scalability modes were experimented with in MPEG-2 video (such as   
  915.  Frequency Scalability), but were eventually dropped in favor of methods 
  916.  that demonstrated comparable or better picture quality with greater 
  917.  simplicity.
  918.  
  919.  
  920. 39. Why MPEG-2?  Wasn't MPEG-1 enough?
  921.  
  922. A. MPEG-1 was optimized for CD-ROM or applications at about 1.5 
  923. Mbit/sec. Video was strictly non-interlaced (i.e. progressive).  The 
  924. international cooperation executed well enough for MPEG-1, that the committee 
  925. began to  address applications at broadcast TV sample rates using the 
  926. CCIR 601 recommendation (720 samples/line by 480 lines per frame by 30 
  927. frames per second or about 15.2 million samples/sec including chroma) as 
  928. the reference.
  929.  
  930. Unfortunately, today's TV scanning pattern is interlaced.  This 
  931. introduces a duality in block coding:  do local redundancy areas (blocks) 
  932. exist exclusively in a field or a frame.(or a particle or wave) ?  The 
  933. answer of course is that some blocks are one or the other at different 
  934. times, depending on motion activity. The additional man years of 
  935. experimentation and implementation between MPEG-1 and MPEG-2 improved 
  936. the method of block-based transform coding.
  937.  
  938.  
  939. 40. What did MPEG-2 add to MPEG-1 in terms of syntax/algorithms ?
  940. A. Here is a brief summary:
  941.  
  942. Sequence layer:
  943. More aspect ratios.  A minor, yet necessary part of the syntax.
  944.  
  945. Horizontal and vertical dimensions are now required to be a multiple of 
  946. 16 in frame coded pictures, and the vertical dimension must be a 
  947. multiple of 32 in field coded pictures.
  948.  
  949. 4:2:2 and 4:4:4 macroblocks were added in the Next profiles.
  950.  
  951. Syntax can now signal frame sizes as large as 16383 x 16383.
  952.  
  953. Syntax signals source video type (NTSC, PAL, SECAM, MAC, component) to 
  954. help post-processing and display.
  955.  
  956. Source video color primaries (609, 170M, 240M, D65, etc.) and opto-
  957. electronic transfer characteristics (709, 624-4M, 170M etc.) can be 
  958. indicated.
  959.  
  960. Four scaleable modes [see scalability discussion] 
  961.  
  962. Picture layer:
  963. All MPEG-2 motion vectors are specified to a half-pel sample grid.
  964.  
  965. DC precision can be user-selected as 8, 9, 10, or 11 bits.
  966.  
  967. New scalar quantization matrices may be downloaded once per picture.  In High 
  968. profile, separate chrominance matrices now exist (Y and C no longer have to 
  969. share)
  970.  
  971. Concealment motion vectors were added to I-pictures in order to increase 
  972. robustness from bit errors. I pictures are the most critical and sensitive 
  973. picture in a group of pictures.
  974.  
  975. A non-linear macroblock quantization factor providing a wider dynamic 
  976. range, from 0.5 to  56, than the linear MPEG-1 (1 to 32) range. Both are 
  977. sent as a 5-bit FLC side information in the macroblock and slice 
  978. headers.
  979.  
  980. New Intra-VLC table for dct_coefficient_next (AC run-level events) that 
  981. is a better match for the histogram of Intra-coded pictures. EOB is 4 
  982. bits. The old table, dct_coef_next, are reserved for use in non-intra 
  983. pictures (P, B), although they new table can be used for Intra-coded 
  984. macroblocks in P and B pictures as well.
  985.  
  986. Alternate scanning pattern that (supposedly) improves entropy coding 
  987. performance over the original Zig-Zag scan used in H.261, JPEG, and MPEG-1.  
  988. The extra scanning pattern is geared towards interlaced video.
  989.  
  990. Syntax to signal an irregular 3:2 pulldown process (repeat_field_first flag)
  991.  
  992. Progressive and interlaced frame coding
  993.  
  994. Syntax to indicate source composite video characteristics useful in post-
  995. processing operations. (v-axis, field sequence, sub_carrier, phase, 
  996. burst_amplitude, etc.)
  997.  
  998. Pan & scanning syntax that tells decoder how to, for example, window a 
  999. 4:3 image within a wider 16:9 aspect ratio coded image.  Vertical pan 
  1000. offset has 1/16th pixel accuracy.
  1001.  
  1002. Macroblock layer:
  1003. Macroblock stuffing is now illegal in MPEG-2 (hurray!!). If stuffing is 
  1004. really needed, the encoder can pad slice start codes.
  1005.  
  1006. Two organizations for macroblock coefficients (interlaced and progressive) 
  1007. signaled by dct_type flag.
  1008.  
  1009. Now only one run-level escape code code (24-bits) instead of the single (20-
  1010. bits) and double escape (28-bits) in MPEG-1.
  1011.  
  1012. Improved mismatch control in quantization over the original oddification  
  1013. method in MPEG-1.  Now specifies adding or subtracting one to the 63rd 
  1014. AC coefficient depending on parity of the summed coefficients. MPEG-2 
  1015. mismatch control is performed on the transform coefficients, whereas in MPEG-
  1016. 1, it is applied to the quantized transform coefficients.
  1017.  
  1018. Many additional prediction modes (16x8 MC, field MC, Dual Prime) and, 
  1019. correspondingly, macroblock modes.
  1020.  
  1021. Overall, MPEG-2's greatest compression improvements over MPEG-1 are: 
  1022. prediction modes, Intra VLC table, DC precision, non-linear macroblock 
  1023. quantization.  Implementation improvements: macroblock stuffing was 
  1024. eliminated.
  1025.  
  1026. 41. How do MPEG and JPEG differ?
  1027.  
  1028. A. The most fundamental difference is MPEG's use of block-based motion 
  1029. compensated prediction (MCP)---a method falling into the general category of 
  1030. temporal DPCM.
  1031.  
  1032. The second most fundamental difference is in the target application. 
  1033. JPEG adopts a general purpose philosophy: independence from color space 
  1034. (up to 255 components per frame) and quantization tables for each 
  1035. component. Extended modes in JPEG include two sample precision (8 and 
  1036. 12 bit sample accuracy), combinations of frequency progressive, spatial 
  1037. hierarchically progressive, and amplitude (point transform) progressive 
  1038. scanning modes. Further color independence is made possible thanks to 
  1039. downloadable Huffman tables (up to one for each component.)
  1040.  
  1041. Since MPEG is targeted for a set of specific applications, there is only 
  1042. one color space (4:2:0 YCbCr), one sample precision (8 bits), and one 
  1043. scanning mode (sequential). Luminance and chrominance share quantization 
  1044. and VLC tables. MPEG adds adaptive quantization at the macroblock (16 x 
  1045. 16 pixel area) layer.  This permits both smoother bit rate control and 
  1046. more perceptually uniform quantization throughout the picture and image 
  1047. sequence. However, adaptive quantization is part of the Enhanced JPEG 
  1048. charter (ISO/IEC 10918-3) currently in verification stage. MPEG variable 
  1049. length coding tables are non-downloadable, and are therefore optimized 
  1050. for a limited range of compression ratios appropriate for the target 
  1051. applications.
  1052.  
  1053. The local spatial decorrelation methods in MPEG and JPEG are very 
  1054. similar. Picture data is block transform coded with the two-dimensional 
  1055. orthanormal 8x8 DCT, with asymmetric basis vectors about time (aka DCT-
  1056. II). The resulting 63 AC transform coefficients are mapped in a zig-zag 
  1057. pattern (or alternative scan pattern in MPEG-2) to statistically 
  1058. increase the runs of zeros. Coefficients of the vector are then 
  1059. uniformly scalar quantized, run-length coded, and finally the run-length 
  1060. symbols are variable length coded using a canonical (JPEG) or modified 
  1061. Huffman (MPEG) scheme.  Global frame redundancy is reduced by 1-D DPCM 
  1062. of the block DC coefficients, followed by quantization and variable 
  1063. length entropy coding of the quantized DC coefficient.
  1064.  
  1065.      MCP                   DCT                    ZZ               
  1066. Q
  1067.   Frame -> 8x8 spatial block -> 8x8 frequency block -> Zig-zag scan -> 
  1068.  
  1069.       RLC                  VLC
  1070.        quanitzation -> run-length coding -> variable length coding.
  1071.  
  1072. The similarities have made it possible for the development of hard-wired 
  1073. silicon that can code both standards.  Even some highly microcoded 
  1074. architectures employing hardwired instruction primitives or functional 
  1075. blocks benefit from JPEG/MPEG similarities. There are many additional 
  1076. yet minor differences. They include:
  1077.  
  1078.  1. In addition to the 8-bit mode, DCT and quantization precision 
  1079. in MPEG has a 9-bit and 12-bit mode, respectively, exclusively in non-
  1080. intra coded macroblocks.  A 1-bit expansion takes place in the 
  1081. macroblock difference operation.
  1082.  
  1083.  2. Mismatch control in MPEG-1 forces quantized coefficients to 
  1084. become odd values (oddification). JPEG does not employ any mismatch 
  1085. mechanism.
  1086.  
  1087.  3. JPEG run-length coding produces run-size tokens (run of zeros,
  1088. non-zero coefficient magnitude) whereas MPEG produces fully concatenated 
  1089. run-level tokens that do not require magnitude differential bits.
  1090.  
  1091.  4. DC values in MPEG-1 are limited to 8-bit precision (a constant 
  1092. stepsize of 8), whereas JPEG DC precision can occupy all possible 11-
  1093. bits.  MPEG-2, however, re-introduced extra DC precision critical even 
  1094. at high compression ratios.
  1095.  
  1096.  
  1097. Difference between MPEG and H.261
  1098.  
  1099. 42. How do MPEG and H.261 differ?
  1100.  
  1101. A. H.261, also known as Px64, was targeted for teleconferencing 
  1102. applications where motion is naturally more limited. Motion vectors are 
  1103. restricted to a range of +/- 15 pixel unit displacements. Prediction 
  1104. accuracy is reduced since H.261 motion vectors are specified to only 
  1105. integer-pel accuracy.  Other quality syntactic differences include: no 
  1106. B-pictures, inferior mismatch control.
  1107.  
  1108. 43. Is H.261 the de facto teleconferencing standard?
  1109.  
  1110. A. Not exactly.  To date, about seventy percent of the industrial 
  1111. teleconferencing hardware market is controlled by PictureTel of Mass. 
  1112. The second largest market controller is Compression Labs of Silicon 
  1113. Valley.  PictureTel hardware includes compatibility with H.261 as a 
  1114. lowest common denominator, but when in communication with other 
  1115. PictureTel hardware, it can switch to a mode superior at low bit rates 
  1116. (less than 300kbits/sec). In fact, over 2/3 of all teleconferencing is 
  1117. done at two-times switched 56 channel (~P = 2) bandwidth.  ISDN is still 
  1118. expensive. In each direction, video and audio are coded at an aggregate 
  1119. rate of 112 kbits/sec (2*56 kbits/sec). The PictureTel proprietary 
  1120. compression algorithm is acknowledged to be a combination of spatial 
  1121. pyramid, lattice vector quantizer, and an unidentified entropy coding 
  1122. method.  Motion compensation is considerably more refined and 
  1123. sophisticated than the 16x16 integer-pel block method specified in 
  1124. H.261.
  1125.  
  1126. The Compression Labs proprietary algorithm also offers significant 
  1127. improvement over H.261 when linked to other CLI hardware. Local 
  1128. decorrelation is based on a DCT-VQ hybrid.
  1129.  
  1130. Currently, ITU-TS (International Telecommunications Union--
  1131. teleconferencing Sector), formerly CCITT, is quietly defining an 
  1132. improvement to H.261 with the participation of industry vendors.
  1133.  
  1134.  
  1135. Rate control
  1136.  
  1137. 44. What is the TM rate control and adaptive quantization technique ?
  1138.  
  1139. A. The Test model (MPEG-2) and Simulation Model (MPEG-1) were not, by 
  1140. any stretch of the imagination, meant to epitomize state-of-the art 
  1141. encoding quality.  They were, however, designed to exercise the syntax, 
  1142. verify proposals, and test the *relative* compression performance of 
  1143. proposals in a timely manner that could be duplicated by co-
  1144. experimenters.  Without simplicity, there would have been no doubt 
  1145. endless debates over model interpretation.  Regardless of all else, more 
  1146. advanced techniques would probably trespass into proprietary territory.
  1147.  
  1148. The final test model for MPEG-2 is TM version 5b, aka TM version 6. The 
  1149. final MPEG-1 simulation model is version 3. The MPEG-2 TM rate control 
  1150. method offers a dramatic improvement over the SM method.  TM adds more 
  1151. accurate estimation of macroblock complexity through use of limited  a 
  1152. priori information. Macroblock quantization adjustments are computed on 
  1153. a macroblock basis, instead of once-per-slice.
  1154.  
  1155. 45. How does the TM work?
  1156. A. Rate control and adaptive quantization are divided into three steps:
  1157.  
  1158. Step One:Bit Allocation 
  1159.  
  1160.     In Complexity Estimation, the global complexity measures assign 
  1161. relative weights to each picture type (I,P,B).  These weights (Xi, Xp, 
  1162. Xb) are reflected by the typical coded frame size of I, P, and B 
  1163. pictures (see typical frame size discussion). I pictures are usually  
  1164. assigned the largest weight since they have the greatest stability 
  1165. factor in an image sequence.  B pictures are assigned the smallest 
  1166. weight since B energy do not propagate into other pictures and are usually 
  1167. highly correlated with neighboring P and I pictures. 
  1168.  
  1169. The bit target for a frame is based on  the frame type, the remaining number 
  1170. of bits left in the Group of Pictures (GOP) allocation, and the immediate 
  1171. statistical history of previously coded pictures.
  1172.  
  1173. Step Two:       Rate Control
  1174.  
  1175. Rate control attempts to adjust bit allocation if there is significant 
  1176. difference between the target bits (anticipated bits) and actual coded 
  1177. bits for a block of data.  If the virtual buffer begins to overflow, the 
  1178. macroblock quantization step size is increased, resulting in a smaller 
  1179. yield of coded bits in subsequent macroblocks. Likewise, if underflow 
  1180. begins, the step size is decreased.   The Test Model approximates that the 
  1181. target 
  1182. picture has spatially uniform distribution of bits.  This is a safe 
  1183. approximation since spatial activity and perceived quantization noise 
  1184. are almost inversely proportional.  Of course, the user is free to 
  1185. design a custom distribution,  perhaps targeting more bits in areas that 
  1186. contain text, for example.
  1187.  
  1188.  
  1189. Step Three:     Adaptive Quantization
  1190.  
  1191. The final step modulates the macroblock quantization step size obtained in 
  1192. Step 2 by a local activity measure. The activity measure itself is normalized 
  1193. against the most recently coded picture of the same type (I, P, or B). The 
  1194. activity for a macroblock is chosen as the minimum among the four 8x8 block 
  1195. luminance variances.  Choosing the minimum block is part of the concept that 
  1196. a macroblock is no better than the block of highest visible distortion 
  1197. (weakest link in the chain).
  1198.  
  1199. 46. What is a good motion estimation method, then? 
  1200.  
  1201. A. When shopping for motion vectors, the three basic characteristics 
  1202. are: Search range, search pattern, and matching criteria.  Search 
  1203. pattern has the greatest impact on finding the best vector. Hierarchical 
  1204. search patterns first find the best match between downsampled images of 
  1205. the reference and target pictures and then refine the vector through 
  1206. progressively higher resolutions. When compared to other fast methods, 
  1207. hierarchical patterns are less likely to be confused by extremely local 
  1208. distortion minimums as being a best match. Also note that subsampled search 
  1209. and hierarchical search are not synonymous.
  1210.  
  1211. Q.  Is there a limit to the length of motion vectors? 
  1212.  
  1213. The search area is unlimited, but the reconstructed motion vectors must 
  1214. not:
  1215.  
  1216. a. point beyond the picture boundaries   (1 <= MV_x <= luminancewidth - 
  1217. 16) and (1 <= MV_y <= luminanceheight - 16). The - 16 is due to the 
  1218. fact that the motion vector origin is the upper left hand corner of a 
  1219. macroblock)
  1220.  
  1221. b. In Constrained Parameters MPEG-1, the motion vector is limited to a 
  1222. range of [-64,+63.5] luminance samples with half-pel accuracy, and [-
  1223. 128,+127.5] with integer pel accuracy.  Break the constrained parameters 
  1224. rules and your video sequence will not likely display on many hardware 
  1225. devices.
  1226.  
  1227. c.  In MPEG-2 Video Main Profile at Main Level, the motion vectors are 
  1228. always on a half-pel co-ordinate grid, and the vertical range is 
  1229. restricted to [-64, +63.5], and the horizontal limit is [-256,+255.5].
  1230.  
  1231. d. in MPEG-1, the syntactic limit of the motion vector is [-1024,+1023] 
  1232. integer pel, horizontal and vertical.
  1233.  
  1234. e. in MPEG-2, the syntactic limit of the motion vector is [-2048,+2047.5] 
  1235. horizontal, [-1024,+1023.5] vertical.
  1236.  
  1237.  
  1238. 47. Is exhaustive search "optimal" ?
  1239.  
  1240. A. Definitely not in the context of block-based MCP video.   Since one 
  1241. motion vector represents the prediction of 256 pixels, divergent pixels 
  1242. within  the macroblock are misrepresented by the "global" vector.  This 
  1243. leads  back to the general philosophy of block-based coding as an 
  1244. approximation technique. In their ICASSP93 paper, Sullivan discusses ways in 
  1245. which block-based prediction schemes can solve part of this problem.
  1246.  
  1247. Exhaustive search may find blocks with the least distortion (displaced frame 
  1248. difference) but will not produce motion vectors with the lowest entropy.
  1249.  
  1250. 48. What are some advanced encoding methods?
  1251.  
  1252. Quantizer feedback: determine the dependent quantization stepsize by 
  1253. modeling quantization error propagating over multiple pictures. [Uz/et 
  1254. al ICASSP 93, Ortega/Vetterli/et al ICASSP 93]
  1255.  
  1256. Smoothness constraint placed on local activity  measures. immediate blocks 
  1257. outside target macroblock are considered when selecting macroblock 
  1258. quantization stepsize .[Thomson/Savitier patent]
  1259.  
  1260. Horizontal variance: measure variance between columns of pixels in addition 
  1261. to the traditional measure of variance along rows (lines) when making 
  1262. field/frame macroblock prediction decision.
  1263.  
  1264. DFD energy: examine DFD energy/variance when making Intra/Non-intra 
  1265. macroblock decision. 
  1266.  
  1267. Activity measures:  use total bits from a first-pass encoding of a picture or 
  1268. macroblock as a measure of the activity.  Coded bits is a more accurate 
  1269. reflection of local complexity than variance. [Thomson/Savitier patent]
  1270.  
  1271. motion vector cost:  this is true for any syntax elements, really. Signaling 
  1272. a macroblock quantization factor or a large motion vector differential can 
  1273. cost more than making up the difference with extra quantized DFD (prediction 
  1274. error) bits.   The optimum can be found with, some Lagrangian operator.  In 
  1275. summary, any compression system with side information, there is a optimum 
  1276. point between signaling overhead (e.g. prediction) and prediction error. 
  1277.  
  1278. Liberal Interpretations of the Forward DCT:
  1279. Borrowing from the concept that the DCT is simply a filter bank, a 
  1280. technique that seems to be gaining popularity is basis vector shaping.  
  1281. Usually this is combined with the quantization stage since the two are 
  1282. tied closely together in a rate-distortion sense. The idea is to use  
  1283. the basis vector shaping as a cheap alternative to pre-filtering by 
  1284. combining the more desirable data adaptive properties of pre-filtering/ 
  1285. pre-processing into the transformation process... yet still reconstruct  
  1286. a picture in the decoder using the standard IDCT that looks reasonably   
  1287. like the source. Some more clever schemes will apply a form of windowing. 
  1288. [Warning: watch out for eigenimage/basis vector orthoganality. ]
  1289.  
  1290. Frequency-domain enhancements:
  1291. Enhancements are applied after the DCT (and possibly quantization)stage 
  1292. to the transform coefficients.  This borrows from the concept: if you 
  1293. don't like the (quantized) transformed results, simply reshape them into 
  1294. something you do like. Suppressing isolated small amplitudes is popular.
  1295.  
  1296. Temporal spreading of quantization error:
  1297. This method is similar to the original intent behind color subcarrier 
  1298. phase alternation by field in the NTSC, PAL, and SECAM analog TV 
  1299. standards: for stationary areas, noise does not hang" in one location, 
  1300. but dances about the image over time to give a more uniform effect.  
  1301. Distribution makes it more difficult for the eye to "catch on" to 
  1302. trouble spots (due to the latent temporal response curve of human 
  1303. vision). Simple encoder models tend to do this naturally but will not 
  1304. solve all situations.
  1305.  
  1306.  
  1307. Look-ahead and adaptive frame cycle structures: analyze picture activity 
  1308. several pictures into the future, looking for scene changes or motion 
  1309. statistics.
  1310.  
  1311. It is easy to spot encoders that do not employ any advanced encoding 
  1312. techniques:  reconstructed video usually contains ringing around edges, 
  1313. color bleeding, and lots of noise.
  1314.  
  1315. 49. Is so-and-so really MPEG compliant ? 
  1316.  
  1317. A. At the very least, there are two areas of conformance/compliance in 
  1318. MPEG:  1. Compliant bitstreams  2. compliant decoders.  Technically 
  1319. speaking, video bitstreams consisting entirely of I-frames (such as 
  1320. those generated by Xing software) are syntactically compliant with the 
  1321. MPEG specification.  The I-frame sequence is simply a subset of the full 
  1322. syntax.  Compliant bitstreams must obey the range limits (e.g. motion 
  1323. vectors limited to +/-128, frame sizes, frame rates, etc.)and syntax 
  1324. rules (e.g. all slices must commence and terminate with a non-skipped 
  1325. macroblock, no gaps between slices, etc.). 
  1326.  
  1327. Decoders, however, cannot escape true conformance. For example, a 
  1328. decoder that cannot decode P or B frames are *not* legal MPEG.  
  1329. Likewise, full arithmetic precision must be obeyed before any decoder 
  1330. can be called "MPEG compliant."   The IDCT, inverse quantizer, and 
  1331. motion compensated predictor must meet the specification requirements... 
  1332. which are fairly rigid (e.g. no more than 1 least significant bit of 
  1333. error between reference and test decoders). Real-time conformance is 
  1334. more complicated to measure than arithmetic precision, but it is 
  1335. reasonable to expect that decoders that skip frames on reasonable 
  1336. bitstreams are not likely to be considered compliant.
  1337.  
  1338. Artifacts
  1339.  
  1340. 50. What are the tell-tale MPEG artifacts?
  1341.  
  1342. A. If the encoder did its job properly, and the user specified a proper 
  1343. balance between sample rate and bitrate, there shouldn't be any visible 
  1344. artifacts.  However, in sub-optimal systems, you can look for:
  1345.  
  1346.  Gibbs phenomenon/Ringing/Aliasing (too few AC bits, not enough 
  1347. pre-processing)
  1348.  
  1349. Blockiness (not considering your neighbors before quantizing)
  1350.  
  1351. Posterization (too few DC bits)
  1352.  
  1353. Checkerboards (DCT eigenimages as a result of too few AC coefficients)
  1354. Colorbleeding (not considering color in encoder cost model, not 
  1355. subtracting color at edges of objects, etc.)
  1356.  
  1357. 51. Where are the weak points of MPEG video ?
  1358. A. 
  1359.  Texture patterns (rapidly alternating lines)
  1360.  sharp edges (especially text)
  1361.  [installment 3]
  1362.  
  1363.  
  1364. 52. What are some myths about MPEG?
  1365. A. There are a few major myths that I am aware of:
  1366.  
  1367. 1. Block displacements:  macroblock predictions are formed out of 
  1368. arbitrary 16x16 (or 16x8/16x16 in MPEG-2) areas from previously 
  1369. reconstructed pictures. Many people believe that the prediction 
  1370. macroblocks have  boundaries that fall on interchange boundaries (pixel 
  1371. 0, 15, 31, 53... line 0, 15, 31, 53... etc.).  In fact, motion vectors 
  1372. represent relative translations with respect to the target 
  1373. reconstruction macroblock coordinates. The motion vectors can point to 
  1374. half pixel coordinates, requiring that the prediction macroblock to be 
  1375. formed via bi-linear interpolation of pixels.
  1376.  
  1377.  
  1378. 2. Displaced frame (macroblock) difference construction: the prediction 
  1379. error formed as the difference between the prediction macroblock and 
  1380. source macroblock is coded much like an Intra macroblock.  The 
  1381. prediction may come from different locations (as in bi-directional 
  1382. prediction--or in MPEG-2--16x8, field-in-frame, and Dual Prime), but the 
  1383. DFD is always coded as a 16x16 unit.
  1384.  
  1385. 3. Compression ratios
  1386.  
  1387. You hear 200:1 and 100:1 in the media.  Utter rubbish.  The true range 
  1388. is between 16:1 and 40:1.  Spreading misinformation about compression 
  1389. ratios in public will catch the attention of the infamous "MPEG Police." 
  1390. They say mild-mannered Michael Barnsley will snap, without warning, into 
  1391. violent rage if he doesn't get the upper bunk bed.
  1392.  
  1393. 4. Picture coding types all consist of the same macroblocks
  1394.  
  1395. Macroblocks within I pictures are strictly intra-coded.  Macroblocks 
  1396. within P pictures can be either predicted or intra-coded, and B pictures 
  1397. they can be bi-directional, forward, backward, or intra.  Additional 
  1398. macroblock modes switches include: predicted with no motion 
  1399. compensation, modified macroblock quantization, coding of prediction error or 
  1400. not.  The switches are concatenated into the macroblock_type side information 
  1401. and variable length coded in the macroblock header.
  1402.  
  1403. 53. What is the color space of MPEG?
  1404.  
  1405. MPEG strictly specifies the YCbCr color space, not YUV or YIQ or YPbPr
  1406. or YDrDb or any other color difference variations.  Regardless of any
  1407. bitstream parameters, MPEG-1 and MPEG-2 Video Main Profile specify
  1408. 4:2:0 chroma ratio, where the color difference channels (Cb, Cr) have
  1409. half the "resolution" or sample grid density in both the horizontal and
  1410. vertical direction with respect to luminance.
  1411.  
  1412. MPEG-2 High Profile includes an option for 4:2:2 and 4:4:4 coding.
  1413. Applications for this are likely to be broadcasting and contribution
  1414. equipment.
  1415.  
  1416. 54. Don't you mean 4:1:1 ?
  1417.  
  1418. A. No, no, no. Here is a table of ratios:
  1419.  
  1420.  
  1421.  CCIR 601 (60 Hz) image          Chroma sub-sampling factors
  1422. format  Y               Cb, Cr  Vertical        Horizontal
  1423. -----           ---------       ----------      --------        ----------
  1424. 4:4:4           720 x 480       720 x 480       none            none
  1425. 4:2:2           720 x 480       360 x 480       none            2:1
  1426. 4:2:0           720 x 480       360 x 240       2:1             2:1
  1427. 4:1:1           720 x 480       720 x 120       none            4:1
  1428. 4:1:0           720 x 480       180 x 120       4:1             4:1
  1429.  
  1430. 3:2:2, 3:1:1, and 3:1:0 are less common variations.
  1431.  
  1432. 55. Why did MPEG choose 4:2:0 ? Isnt 4:2:2 the standard for TV?
  1433.  
  1434. A. At least three reasons I can think of:
  1435.  
  1436. 1. 4:2:0 picture memory requirements are 33% less than the  size of
  1437.  4:2:2 pictures.  MPEG-1 decoder are able to snugly fit all 3 SIF
  1438.  pictures (1 reconstruction & display, 2 prediction) into 512 KBytes of
  1439.  buffer space.  CCIR 601 is a tighter fit into 2 Mbytes.
  1440.  
  1441. 2. The subjective difference between 4:2:0 and 4:2:2 is minimal, when 
  1442.  considering consumer display equipment and distribution compression ratios.
  1443.  
  1444. 3. Vertical decimation increases compression efficiency by reducing syntax 
  1445.  overhead posed in an 8 block (4:2:0) macroblock structure.
  1446.  
  1447. 4. You're compressing the hell out of the video signal, so what possible 
  1448.   difference can the 0:0:2 high-pass make?
  1449.  
  1450. Interlacing and the 62 microsecond gap between successively scanned lines 
  1451. introduces some discontinuities, but most of this can be alleviated through 
  1452. pre-processing.
  1453.  
  1454. 56. What is the precision of MPEG samples?
  1455.  
  1456. A. By definition, MPEG samples have no more and no less than 8-bits uniform 
  1457. sample precision (256 quantization levels).  For luminance (which is 
  1458. unsigned) data, black corresponds to level 0, white is level 255. However, in 
  1459. CCIR recommendation 601 chromaticy, levels 0 through 14 and 236 through 255 
  1460. are reserved for blanking signal excursions. MPEG currently has no such 
  1461. clipped excursion restrictions, although decoder might take care to insure 
  1462. active samples do not exceed these limits.  With three color components per 
  1463. pixel, the total combination is roughly 16.8 million colors (i.e. 24-bits).
  1464.  
  1465. 57. What is all the fuss with cositing of chroma components?
  1466.  
  1467. A. It is moderately important to properly co-site chroma samples, 
  1468. otherwise a sort of chroma shifting effect (exhibited as a halo) may result 
  1469. when the reconstructed video is displayed.  In MPEG-1 video, the chroma 
  1470. samples are exactly centered between the 4 luminance samples (Fig 1.)   To 
  1471. maintain compatibility with the CCIR 601 horizontal chroma locations and 
  1472. simplify implementation (eliminate need for phase shift), MPEG-2 chroma 
  1473. samples are arranged as per Fig.2.
  1474.  
  1475.   Y   Y   Y   Y             Y   Y   Y   Y         YC  Y   YC  Y
  1476.     C       C               C       C                  
  1477.   Y   Y   X   Y             Y   Y   Y   Y         YC  Y   YC  Y
  1478.  
  1479.   Y   Y   Y   Y             Y   Y   Y   Y         YC  Y   YC  Y
  1480.     C       C               C       C    
  1481.   Y   Y   Y   Y             Y   Y   Y   Y         YC  Y   YC  Y
  1482.  
  1483.   Fig.1 MPEG-1               Fig.2  MPEG-2           Fig.3 MPEG-2 and 
  1484.  4:2:0 organization         4:2:0 organization         CCIR Rec. 601
  1485.            4:2:2 organization
  1486.  
  1487. MPEG for the data compression expert
  1488.  
  1489. 58. How would you explain MPEG to the data compression expert?
  1490.  
  1491. A. MPEG video is a block-based video scheme.
  1492.  
  1493.  
  1494. 59. How does MPEG video really compare to TV, VHS, laserdisc ?
  1495. A. VHS picture quality can be achieved for source film video at about 1
  1496.  million bits per second (with proprietary encoding methods).  It is
  1497.  very difficult to objectively compare  MPEG to VHS.  The response curve
  1498.  of VHS places -3 dB at around 2 MHz of analog luminance bandwidth
  1499.  (equivalent to 200 samples/line). VHS chroma is considerably less dense
  1500.  in the horizontal direction than MPEG source video (compare 80
  1501.  samples/line to 176!).  From a sampling density perspective, VHS is
  1502.  superior only in the vertical direction (480 luminance lines compared
  1503.  to 240)...  but when taking into account (supposedly such things as)
  1504.  interfield magnetic tape crosstalk and the TV monitor Kell factor, the
  1505.  perceptual vertical advantage is not all that significant.  VHS is
  1506.  prone to such inconveniences as timing errors (an annoyance addressed
  1507.  by time base correctors), whereas digital video is fully discretized.
  1508.  Pre-recorded VHS is typically recorded at very high duplication speeds
  1509.  (5 to 15 times real time playback speed), opening up additional avenues
  1510.  for artifacts.  In gist, MPEG-1 at its nominal parameters can match
  1511.  VHSs sexy low-pass-filtered look.
  1512.  
  1513.  With careful coding schemes, broadcast NTSC quality can be approximated at 
  1514.  about 3 Mbit/sec, and PAL quality at about 4 Mbit/sec.  Of course, sports 
  1515.  sequences with complex spatial-temporal activity should be treated with bit 
  1516.  rates more like 5 and 6 Mbit/sec, respectively. Laserdisc is a tough one to 
  1517.  compare.  Laserdiscs are encoded with composite video (NTSC or PAL). 
  1518.  Manufacturers of laser disc players make claims of  up to 425 TVL (or 567 
  1519.  samples/line) response. Thus it could be said the laserdisc has a 567 x 480 x 
  1520.  30 Hz "potential resolution". The carrier-to-noise ratio is typically better 
  1521.  than 48 dB.  Timing is excellent. Yet some of the clean characteristics of 
  1522.  laserdisc can be achieved with MPEG-1 at 1.15 Mbit/sec (SIF rates), 
  1523.  especially for those areas of medium detail (low spatial activity) in the 
  1524.  presence of uniform motion. This may be why some people say MPEG-1 video at 
  1525.  1.15 Mbit/sec looks almost as good as Laserdisc or Super VHS at times.
  1526.  
  1527. 60. What are the typical MPEG-2 bitrates and picture quality?
  1528.  
  1529.      Picture type
  1530.    I               P               B          Average
  1531. MPEG-1 SIF
  1532. @ 1.15 Mbit/sec         150,000         50,000          20,000      
  1533. 38,000
  1534.  
  1535. MPEG-2 601              400,000         200,000         80,000     
  1536. 130,000
  1537. @ 4.00 Mbit/sec
  1538.  
  1539. Note: parameters assume Test Model for encoding, I frame distance of 15 (N = 
  1540. 15), and a P frame distance of 3 (M = 3).
  1541.  
  1542. Of course, among differing source material, scene changes, and use of 
  1543. advanced encoder models...  these numbers can be significantly different.
  1544.  
  1545. 61. At what bitrates is MPEG-2 video optimal? 
  1546. A. The Test subgroup has defined a few examples:
  1547.  
  1548. "Sweet spot" sampling dimensions and bit rates for MPEG-2:
  1549.  
  1550. Dimensions      Coded rate      Comments
  1551. -------------   ----------      ----------------------------------------
  1552. ---
  1553. 352x480x24 Hz   2 Mbit/sec      Half horizontal 601.  Looks almost NTSC
  1554. (progressive)                   broadcast quality, and is a good 
  1555. (better) 
  1556.     substitute for VHS.  Intended for film src.
  1557.  
  1558. 544x480x30 Hz   4 Mbit/sec      PAL broadcast quality (nearly full 
  1559. capture 
  1560. (interlaced)                    of 5.4 MHz luminance carrier).  Also 
  1561.     4:3 image dimensions windowed within 720
  1562.     sample/line 16:9 aspect ratio via pan&scan.
  1563.  
  1564. 704x480x30 Hz   6 Mbit/sec      Full CCIR 601 sampling dimensions.
  1565. (interlaced)
  1566.  
  1567. [these numbers subject to change at whim of MPEG Test subgroup]
  1568.  
  1569.  
  1570.  
  1571. 62. Why does film perform so well with MPEG ?
  1572. A. Several reasons, really:
  1573.  
  1574.    1) The frame rate is 24 Hz (instead of 30 Hz) which is a savings of
  1575.       some 20%.  
  1576.    2) the film source video is inherently progressive.  Hence no fussy 
  1577.       interlaced spectral frequencies.
  1578.    3) the pre-digital source was severely oversampled (compare 352 x 240 
  1579.       SIF to 35 millimeter film at, say, 3000 x 2000 samples).  This can 
  1580.       result in a very high quality signal, whereas most video cameras 
  1581. do 
  1582.       not oversample, especially in the vertical direction. 
  1583.    4) Finally, the spatial and temporal modulation transfer function 
  1584. (MTF) 
  1585.       characteristics (motion blur, etc) of film are more amenable to 
  1586.       the transform and quantization methods of MPEG.
  1587.  
  1588. 63. What is the best compression ratio for MPEG ?
  1589.  
  1590. A. The MPEG sweet spot is about 1.2 bits/pel Intra and .35 bits/pel 
  1591. inter. Experimentation has shown that intra frame coding with the 
  1592. familiar DCT-Quantization-Huffman hybrid algorithm achieves optimal 
  1593. performance at about an average of 1.2 bits/sample or about 6:1 
  1594. compression ratio. Below this point, artifacts become noticeable.
  1595.  
  1596. 64. Can MPEG be used to code still frames?
  1597.  
  1598. A. Yes.  There are, of course, advantages and disadvantages to using 
  1599. MPEG over JPEG:
  1600.  
  1601. Disadvantages:
  1602.  
  1603. 1. MPEG has only one color space
  1604. 2. MPEG-1 and MPEG-2 Main Profile luma and chroma share  quanitzation 
  1605. and VLC tables
  1606. 3. MPEG-1 is syntactically limited to 4k x 4k images, and 16k x 16k for 
  1607. MPEG-2.
  1608.  
  1609. Advantages:
  1610.  
  1611. 1. MPEG possesses adaptive quantization
  1612.  
  1613. 2. With its limited still image syntax,  MPEG averts any temptation to use 
  1614. unnecessary, expensive, and  academic encoding methods that have little 
  1615. impact on the overall picture quality (you know who you are).
  1616.  
  1617. Philips' CD-I spec. has a requirement for a MPEG still frame mode, with 
  1618. double SIF image resolution.  This is technically feasible mostly thanks to 
  1619. the fact that only one picture buffer is needed to decode a still image 
  1620. instead of three buffers.
  1621.  
  1622. 65. Is there an MPEG file format?
  1623.  
  1624. A. Not exactly.  The necessary signal elements that indicate image size, 
  1625. picture rate, aspect ratio, etc. are already contained within the sequence 
  1626. layer of the MPEG video stream.  The Whitebook format for Karoke and CD-I 
  1627. movies specify a range of (time-division) multiplexing strategies for audio 
  1628. and video bitstreams.  A directory format listing scenes and their locations 
  1629. on the disc is associated with the White Book specification.
  1630.  
  1631. 66. What are some pre-processing enhancements ?
  1632.  
  1633. Adaptive de-interlacing:
  1634.  
  1635. This method maps interlaced video from a higher sampling rate (e.g 720 x 480) 
  1636. into a lower rate, progressive format (352 x 240).   The most basic algorithm 
  1637. measures the correlation between two immediate macroblock fields, and if the 
  1638. correlation is high enough, uses an average of both fields to form a frame 
  1639. macroblock.  Otherwise, a field area from one field (usually of the same 
  1640. parity) is selected.  More clever algorithms are much more complex than this, 
  1641. and may involve median filtering, and multirate/multidimensional tools.
  1642.  
  1643. Pre-anti-aliasing and Pre-blockiness reduction:
  1644. A common method in still image coding is to pre-smooth the image before 
  1645. encoding.  For example, if pre-analysis of a frame indicates that serious 
  1646. artifacts will arise if the picture were to be coded in the current condition 
  1647. (i.e. below the sweet spot), a pre-anti-aliasing filter can be applied.  This 
  1648. can be as simple as having a smoothing severity proportional to the image 
  1649. activity.  The pre-filter can be global (same smoothing factor for whole 
  1650. image or sequence) or locally adaptive. More complex methods will again use 
  1651. multirate/multidimensional methods.
  1652.  
  1653. One straightforward concept from multidimensional/multirate e-processing is 
  1654. to  apply source video whose resolution (sampling density) is greater than 
  1655. the target source and reconstruction sample rates. This follows the basic 
  1656. principles of oversampling, as found in A/D converters.
  1657.  
  1658. These filters emphasize the fact that most information content is contained 
  1659. in the lower harmonics of a picture anyway.  VHS is hardly considered to be a 
  1660. sharp cut-off medium,  tragically implying that "320 x 480 potential" of 
  1661. VHS is never truly realized.
  1662.  
  1663. 67. Why use these "advanced" pre-filtering techniques?
  1664.  
  1665. A. Think of the DCT and quantizer as an A/D converter.  Think of the DCT/Q 
  1666. pre-filter as the required anti-alias prefilter found before every A/D.  The 
  1667. big difference of course is that the DCT quantizer assigns a varying number 
  1668. of bits per transform coefficient. Judging on the normalized activity 
  1669. measured in the pre-analysis stage of video encoding (assuming you even have 
  1670. a pre-analysis stage), and the target buffer size status, you have a fairly 
  1671. good idea of how many bits can be spared for the target macroblock, for 
  1672. example.
  1673.  
  1674. Other pre-filtering techniques mostly take into account: texture patterns, 
  1675. masking, edges, and motion activity.  Many additional advanced techniques can 
  1676. be applied at different immediate layers of video encoding (picture, slice, 
  1677. macroblock, block, etc.).
  1678.  
  1679.  
  1680. 68. What about post-processing enhancements?
  1681.  
  1682. Some research has been carried out in this area. Non-linear interpolation 
  1683. methods have been published by Wu and Gersho (e.g. ICASSP 93), convex hull 
  1684. projections for MAP (Severinson, ICASSP 93), and others.  Post-processing 
  1685. unfortunately defies the spirit of MPEG conformance.  Decoders should produce 
  1686. similar reconstructions. Enhancements should ideally be done during the pre-
  1687. processing and encoding stages.
  1688.  
  1689. 69. Can motion vectors be used to measure object velocity?
  1690.  
  1691. A. Motion vector information cannot be reliably used as a means of  
  1692. determining object velocity unless the encoder model specifically set 
  1693. out to do so.  First, encoder models that optimize picture quality generate 
  1694. vectors that typically minimize prediction error and, consequently, 
  1695. the vectors often do not represent true object translation.  Standards 
  1696. converters that resample one frame rate to another (as in NTSC to PAL) 
  1697. use different  methods (motion vector field estimation, edge detection, et 
  1698. al) that are 
  1699. not concerned with optimizing ratios such as SNR vs bitrate. Secondly, motion 
  1700. vectors 
  1701. are not transmitted for all macroblocks anyway.
  1702.  
  1703. 70. How do you code interlaced video with MPEG-1 syntax?
  1704. A. Two methods can be applied to interlaced video that maintain 
  1705. syntactic compatibility with MPEG-1 (which was originally designed for 
  1706. progressive frames only).  In the field concatenation method, the 
  1707. encoder model can carefully construct predictions and prediction errors 
  1708. that realize good compression but maintain field integrity (distinction 
  1709. between adjacent fields of opposite parity). Some pre-processing 
  1710. techniques can also be applied to the interlaced source video that 
  1711. would, e.g., lessen sharp vertical frequencies.
  1712.  
  1713. This technique is not efficient of course.  On the other hand, if the 
  1714. original source was progressive (e.g. film), then it is more trivial to 
  1715. convert the interlaced source to a progressive format before encoding. 
  1716. (MPEG-2 would then only offer superior performance through greater DC 
  1717. block precision, non-linear mquant, intra VLC, etc.) Reconstructed 
  1718. frames are re-interlaced in the decoder Display process.
  1719.  
  1720. The second syntactically compatible method codes fields as separate pictures. 
  1721. This approach has been acknowledged not to work as well. 
  1722.  
  1723. 71. Is MPEG patented?
  1724. A. Yes and no.  Many encoding methods are patented.  Approximately 11 
  1725. blocking patents, that is, patents that are general enough to be unavoidable 
  1726. in any implementation have been recently identified.
  1727.  
  1728. A patent pool is being formed within MPEG where a single royalty fee would be 
  1729. split among the 31 patent-holding companies.
  1730.  
  1731. 72. How many cable box alliances are there?
  1732.  
  1733. A. Many.  To start with:
  1734.  
  1735.   Scientific Atlanta (SA), Kaledia, and Motorola:
  1736.   SA will build the box, Motorola the chips, and Kaleida the
  1737.   O/S and user interface (using ScriptX of course).
  1738.  
  1739.   Silicon Graphics (SGI), Scientific Atlanta, and Toshiba 
  1740.   For the Time Warner's Orlando trial, SGI will provide the 
  1741.   RISC (MIPS R4000) and software, SA will do the box again,
  1742.   and Toshiba will provide the chips.
  1743.  
  1744.   General Instruments (GI) and Microsoft:
  1745.   GI will make the box and Intel will supply the special low-cost
  1746.   386SL processor on which a 1MB flash EPROM executable core 
  1747.   of  Microsoft windows and DOS will run.  Microsoft will develop the 
  1748.   user interface.
  1749.  
  1750.   Hewlett Packard (HP):
  1751.   HP will manufacture and/or design low cost, open architecture set-top
  1752.   decoder boxes (not a part of the Eon wireless deal).  The CPU will
  1753.   explicitly not use a 80x68 based processor.
  1754.  
  1755.  
  1756.   CLI and Philips:
  1757.   Compression Labs will provide the encoder technology and Philips 
  1758.   will provide the decoder techology for an ADSL system whose
  1759.   transport structure will be put together by Broadband Technologies.
  1760.  
  1761.   ["These alliances subject to change at the whim of PR departments 
  1762.      and market forces."]
  1763.  
  1764. 73. Will there be an MPEG video tape format?
  1765.  
  1766. A. Not exactly. A consortium of international companies are co-
  1767. developing a consumer digital video 6 millimeter wide, metal particle 
  1768. tape format.  Due to the initial high cost of MPEG encoders, a JPEG-like 
  1769. compression method will be used for inexpensive encoding of typical 
  1770. consumer source video (broadcast PAL, NTSC).  The natural consequence of 
  1771. still image methods is less efficient use of bandwidth:  25 Mbit/sec for 
  1772. the same subjective real-time playback quality achieved at 6 Mbit/sec 
  1773. possible with MPEG-2.  A second bit rate mode, 50 Mbit/sec, is 
  1774. designated for HDTV.
  1775.  
  1776. Pre-coded digital video from, e.g., broadcast sources will be directly 
  1777. recorded to tape and "passed-through" as a coded bitstream to the video 
  1778. decompression box upon tape playback. Assuming if linear tape speed is 
  1779. to be proportional to bit rate, the recording time of a pre-compressed 
  1780. MPEG-2 program at the upper limit of 5 Mbit/sec for broadcast quality 
  1781. video, the recording time would be over 20 hours.  Channel coding 
  1782. schemes (error correction, convolution coding, etc.), however, will 
  1783. most likely be optimized for the tape medium and therefore may differ 
  1784. from the channel methods for cable, terrestrial, and satellite. (A 
  1785. Zenith-Goldstar S-VHS based experiment did, however, directly record the 
  1786. 4-VSB broadcast baseband signal of the old Zenith/AT&T HDTV proposal).
  1787.  
  1788. More specs: (Summarized from EE Times July 5, 1993 article)
  1789.  
  1790. tape width:  6.35 mm
  1791. Audio: two channel 48 KHz 16-bit audio, or 4 channel at 32 KHz at 12-bit
  1792. Tape format: metal evaporated tape, 13.5 microns thick
  1793.  
  1794. Cassette dimensions: (millimeters)      Recording times:
  1795. Size            Width   Height  Depth  525/625 (25Mb/sec) HDTV (50 Mb/s)
  1796. --------        -----   ------  -----  ------------------ --------------
  1797. Standard        125     78      14.6   4h30min            2h15min
  1798. Small           66      48      12.2   1 hour             30min
  1799.  
  1800. Linear tape speeds: 18.812 mm/s (60Hz),  18.831 mm/s (50 Hz)
  1801. Video compression: DCT based
  1802.  
  1803. Participants: Matsushita, Sony, Philips, Thomson, Hitachi, Mitsubishi, 
  1804. Sanyo, Sharp, Toshiba, JVC.
  1805.  
  1806. MPEG in everyday life
  1807.  
  1808. 74. Where will be see MPEG in everyday life?
  1809. A. Just about wherever you see video today.
  1810.  
  1811. DBS (Direct Broadcast Satellite)
  1812. The Hughes/USSB DBS service will use MPEG-2 video and audio.  Thomson  
  1813. has exclusive rights to manufacture the decoding boxes for the first 18 
  1814. months of operation. Hughes/USSB DBS will begin its U.S. service in 
  1815. April 1994. Two satellites at 101 degrees West will share the power 
  1816. requirements of 120 Watts per 27 MHz transponder over a total of 32 
  1817. transponders.  Multi source channel rate control methods will be 
  1818. employed to optimally allocate bits between several programs normalized 
  1819. to one 22 Mbit/sec data carrier. Bit allocation adapts to instantaneous co-
  1820. channel 
  1821. spatial and co-channel temporal activity. An average of 150 channels are 
  1822. planned with the addition of a second set of satellites augmenting the power 
  1823. level of each transponder to 240 Watts. The coded throughput of each 
  1824. transponder will increase to 30 Mbit/sec.
  1825.  
  1826.  
  1827. CATV (Cable Television)
  1828. Despite conflicting options, the cable industry has more or less 
  1829. settled on MPEG-2 video.  Audio is less than settled. For example, 
  1830. General Instruments (the largest U.S. consumer cable set-top box 
  1831. manufacturer) have announced the planned exclusive use of Dolby AC-3. 
  1832. The General Instruments DigiCipher I video syntax is similar to MPEG-2 
  1833. syntax,  but employs smaller macroblock predictions and no B-frames.  The 
  1834. DigiCipher II specification will include modes to support both the GI 
  1835. and full MPEG-2 Video Main Profile syntax.  Digicipher-I services such 
  1836. as HBO will upgrade to DigiCipher II in 1994. 
  1837.  
  1838. HDTV
  1839. The U.S. Grand Alliance, a consortium of companies that formerly competed 
  1840. to win the U.S. terrestrial HDTV standard,  have already agreed to 
  1841. use the MPEG-2 Video and Systems syntax---including B-pictures. Both 
  1842. interlaced(1920 x 1080 x 30 Hz) and progressive (1280 x 720 x 60 Hz) 
  1843. modes will be supported. The Alliance has also settled upon a modulation 
  1844. method (VSB)  convolution coding (Viterbi), and error correction (Reed-
  1845. Soloman) specification.
  1846.  
  1847. In September 1993, the consortium of 85 European companies signed an 
  1848. agreement to fund a project known Digital Video Broadcasting (DVB) which 
  1849. will develop a standard for cable and terrestrial transmission by the 
  1850. end of 1994. The scheme will use MPEG-2.  This consortium has put the 
  1851. final nail in the coffin of the D-MAC scheme for gradual migration 
  1852. towards an all-digital, HDTV consumer transmission standard. The only 
  1853. remaining analog or digital-analog hybrid system left in the world is 
  1854. NHK's MUSE (which will probably be axed in a few years as soon as it appears 
  1855. to be politically secure thing to do).
  1856.  
  1857. 75. What is the best compression ratio for MPEG ?
  1858. A. The MPEG sweet spot is about 1.2 bits/pel Intra and .35 bits/pel 
  1859. inter. Experimentation has shown that intra frame coding with the 
  1860. familiar DCT-Quantization-Entropy hybrid algorithm achieves optimal 
  1861. performance at about an average of 1.2 bits/sample or about 6:1 
  1862. compression ratio. Below this point, artifacts become noticeable.
  1863.  
  1864.  
  1865. 76. Is there a MPEG CD-ROM format?
  1866. A. Yes, a consortium of international companies (Matsushita, Philips, 
  1867. Sony, JVC, et al) have agreed upon a specification for MPEG video and 
  1868. audio. 2 hour long movies are stored on two 650 MByte compact discs. The 
  1869. video 
  1870. rate is 1.15 Mbit/sec, the audio rate is either 128 kbit/sec or 192 kbit/sec 
  1871. Layer I or Layer II.(this seems to contradict the Philips 224 kbit/s audio 
  1872. spec?). Although the Video, Systems, and Audio syntax are identical, the CD-I 
  1873. movie format and the White Book format are not compatible.
  1874.  
  1875. Researchers are busy experimenting with denser and faster rate CD 
  1876. formats, perhaps using green or blue laser wavelengths.  One demonstration 
  1877. stretched the pit and track density to its limits, improving areal density by 
  1878. almost 2 fold.
  1879.